Ilusiones del estándar de oro: análisis masivo de evaluación de texto largo Descubre cómo un análisis masivo de 2,084 papers revela las ilusiones del estándar de oro en evaluación humana de texto generado. 2026-06-16 · 3 min